Telegram Group & Telegram Channel
Forwarded from Machinelearning
🌟 Deep Cogito представила серию языковых моделей с открытым исходным кодом.

Deep Cogito выпустила семейство языковых моделей размером 3B, 8B, 14B, 32B и 70B параметров, которые уже доступны для загрузки.

По заявлению разработчиков, их модели превосходят аналогичные открытые решения от LLaMA, DeepSeek и Qwen в большинстве стандартных бенчмарков. Например, 70B-версия обходит новую 109B MoE-модель Llama 4, несмотря на меньший размер.

Все модели обучены с помощью метода Iterated Distillation and Amplification (IDA) — стратегии, которая сочетает итеративное самоулучшение и «сжатие» интеллекта для преодоления ограничений, накладываемых человеческим контролем.

Суть IDA проста: сначала модель «усиливает» свои способности, тратя больше вычислительных ресурсов на поиск решений через CoT, а затем «дистиллирует» эти улучшения в свои параметры. Такой цикл повторяется, создавая петлю обратной связи — каждая итерация делает модель умнее, а её мышление эффективнее. По словам команды, этот подход не только масштабируем, но и быстрее, чем RLHF.

Семейство поддерживает 2 режима работы: стандартный (прямой ответ) и «рефлексивный», где система сначала обдумывает запрос, как это реализовано в Claude 3.7. Они оптимизированы для программирования, вызова функций и агентских сценариев, но без акцента на CoT — разработчики считают, что короткие шаги эффективнее в реальных задачах.

Уже в ближайшие месяцы ожидаются версии на 109B, 400B и 671B параметров и вариации с MoE-архитектурой.

Модели доступны на Hugging Face, Ollama и через API Fireworks AI/Together AI.

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/opendatascience/2250
Create:
Last Update:

🌟 Deep Cogito представила серию языковых моделей с открытым исходным кодом.

Deep Cogito выпустила семейство языковых моделей размером 3B, 8B, 14B, 32B и 70B параметров, которые уже доступны для загрузки.

По заявлению разработчиков, их модели превосходят аналогичные открытые решения от LLaMA, DeepSeek и Qwen в большинстве стандартных бенчмарков. Например, 70B-версия обходит новую 109B MoE-модель Llama 4, несмотря на меньший размер.

Все модели обучены с помощью метода Iterated Distillation and Amplification (IDA) — стратегии, которая сочетает итеративное самоулучшение и «сжатие» интеллекта для преодоления ограничений, накладываемых человеческим контролем.

Суть IDA проста: сначала модель «усиливает» свои способности, тратя больше вычислительных ресурсов на поиск решений через CoT, а затем «дистиллирует» эти улучшения в свои параметры. Такой цикл повторяется, создавая петлю обратной связи — каждая итерация делает модель умнее, а её мышление эффективнее. По словам команды, этот подход не только масштабируем, но и быстрее, чем RLHF.

Семейство поддерживает 2 режима работы: стандартный (прямой ответ) и «рефлексивный», где система сначала обдумывает запрос, как это реализовано в Claude 3.7. Они оптимизированы для программирования, вызова функций и агентских сценариев, но без акцента на CoT — разработчики считают, что короткие шаги эффективнее в реальных задачах.

Уже в ближайшие месяцы ожидаются версии на 109B, 400B и 671B параметров и вариации с MoE-архитектурой.

Модели доступны на Hugging Face, Ollama и через API Fireworks AI/Together AI.

@ai_machinelearning_big_data

BY Data Science by ODS.ai 🦜





Share with your friend now:
tg-me.com/opendatascience/2250

View MORE
Open in Telegram


Data Science by ODS ai 🦜 Telegram | DID YOU KNOW?

Date: |

Start with a fresh view of investing strategy. The combination of risks and fads this quarter looks to be topping. That means the future is ready to move in.Likely, there will not be a wholesale shift. Company actions will aim to benefit from economic growth, inflationary pressures and a return of market-determined interest rates. In turn, all of that should drive the stock market and investment returns higher.

To pay the bills, Mr. Durov is issuing investors $1 billion to $1.5 billion of company debt, with the promise of discounted equity if the company eventually goes public, the people briefed on the plans said. He has also announced plans to start selling ads in public Telegram channels as soon as later this year, as well as offering other premium services for businesses and users.

Data Science by ODS ai 🦜 from sg


Telegram Data Science by ODS.ai 🦜
FROM USA